哈囉大家好~~~~
現在我們知道可以使用Google Cloud Platform和Cloud Machine Learning Engine去訓練我們的機器學習模型,但我們還需要有很重要的東西,就是我們的數據或是數據的特徵,無法對數據進行基本分析,就無法進行機器學習了。因此,接下來我們要介紹特徵工程(Feature Engineering),怎麼樣的特徵是適合輸入到你的機器學習模型的好的特徵呢?或是我們可以創造出一些並不是原本數據集中包含的綜合特徵(像是將某幾欄數據做加總成為新的特徵),創造良好的特徵或綜合特徵被稱為預處理。
好的特徵可以幫助ML的表現更好,我們要先想想我們要解決的問題是甚麼?將你要解決的問題作為你的最終目標,根據你的最終目標是建立一個模型,舉例來說,如果我們目標是預測房屋價格,我們要先要了解有那些跟房子有關的數據,例如:房子大小、土地大小、房間數或位置等。好的特徵工程平均會花費整個ML任務時間的50%到75%,所以特徵工程是很重要又費時的。
以上,那我們明天見~~~~